9月25日云栖大会,阿里巴巴旗下的半导体公司平头哥发布AI推理芯片含光800,这也是互联网公司发布的首个AI推理芯片。
据阿里方面介绍,含光800是全球性能最强的AI芯片,算力相当于10个GPU,主要用于云端视觉处理场景,性能打破了现有AI芯片记录,性能及能效比全球第一,在芯片测试标准平台Resnet 50上的具体分数为:性能78563 IPS,是第二名(15012)5倍;能效比500 IPS/W,是第二名(150)3.3倍。
目前,含光800已经实现了大规模应用,应用于阿里巴巴集团内多个场景,例如视频图像识别/分类/搜索、城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。
云栖大会现场演示了该芯片在多个场景带来的全方位提升,以杭州城市大脑实时处理1000路视频为例,过去使用GPU需要40块,延时为300ms,单路视频功耗2.8W;使用含光800仅需4块,延时150ms,单路视频功耗1W;拍立淘商品库每天新增10亿商品图片,为了让用户快速从海量图片中精准搜索到商品,需要强大的计算力支撑,使用含光800搜索效率可提升12倍,时间从传统通用GPU的1小时缩减至5分钟。
另外,基于含光800的AI云服务也正式上线。相比传统GPU算力,性价比提升100%。
过去半年,平头哥先后发布玄铁910、无剑SoC平台。随着含光800的发布,平头哥端云一体全栈产品系列初步成型,涵盖处理器IP、一站式芯片设计平台和AI芯片,实现了芯片设计链路的全覆盖。
9月25日,阿里CTO张建锋在杭州云栖大会上展示了阿里巴巴的第一颗AI芯片“含光800”。去年的同一场大会上,阿里的芯片公司“平头哥”成立,这之后已经交出了嵌入式CPU“玄铁”和系统芯片平台“无剑”。
根据张建锋的介绍,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。
含光800硬件层面采用自研芯片架构,软件层面集成达摩院算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。
张建锋表示,含光800已开始被应用在阿里巴巴内部核心业务中。根据云栖大会的现场演示,拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,但使用含光800后可缩减至5分钟。
在阿里之外的公共场景中,含光也已经被投入实践。张建锋演示,杭州城市大脑处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms。但使用含光800仅需4颗,延时降至150ms。1颗含光800的算力相当于10颗GPU。
阿里官方表示,成立仅一年的芯片公司平头哥仅用7个月时间完成了前端设计,之后用3个月成功流片。“和绝大多数芯片商不同的是,平头哥的目的并非卖芯片,含光800将通过阿里云对外输出AI算力,未来企业可以通过阿里云获取含光800的算力。”
另外,平头哥还将成立芯片开放社区,为芯片产业提供开放协作平台。
现场还公布了平头哥在端侧的成绩:CK801、CK802、CK803、CK805、CK807、CK810、CK860等7款自研嵌入式CPU IP核授权客户超100家,累计销售超十亿颗,广泛应用于机器视觉、工业控制、车载终端、移动通信和信息安全等领域;除此之外,基于RISC-V架构的玄铁处理器以及无剑SoC平台也已服务各行业企业,例如人工智能企业云天励飞、老牌芯片商炬芯科技等。
阿里方面表示,未来,平头哥的产品形态会进一步完善,例如云上AI训练芯片和端上的AI推理芯片,目前平头哥还在研发用于阿里云神龙服务器的SoC专用芯片,以满足更多场景的算力需求。
芯片跟云搭着卖的方式是阿里“云+AI”销售策略的新一步。“阿里在芯片上的定位是:端上做芯片基础设施,云端为企业提供普惠算力。”
(所有配图来自阿里官方)